Enquête sur les dérives de l’algorithme des caisses d’allocations familiales

Dis-moi qui tu es, l’algorithme dira si tu es suspect. A la Caisse nationale des allocations familiales (CNAF), où la recherche des erreurs de déclaration et des fraudes s’est industrialisée au cours des dernières années, un outil a été érigé en totem : le data mining (exploration de données). La priorisation des dossiers à contrôler repose aujourd’hui quasi exclusivement sur un « score de risque » calculé pour chaque allocataire suivant une batterie de critères personnels.

Ce système fait la fierté de l’institution, qui en vante les performances. Mais les alertes se multiplient sur les possibles dérives de cet algorithme, baptisé « data mining modèle entrant » (DMDE). Plusieurs associations ont accusé la CNAF de discriminer les plus vulnérables au sein des publics à qui elle verse chaque mois le revenu de solidarité active (RSA), les aides au logement ou encore les allocations familiales.

L’ancien Défenseur des droits Jacques Toubon a fustigé en 2020 une démarche fondée sur des « préjugés et des stéréotypes », tandis que de nombreux médias, du Monde à Radio France, en passant par StreetPress, ont documenté la détresse des allocataires face à un système implacable.

Comment nous avons enquêté sur l’algorithme des CAF

Chaque mois, 13,8 millions de foyers d’allocataires sont notés par la Caisse nationale des allocations familiales (CNAF) pour prioriser les contrôles de l’organisme. Mais la recette de cet algorithme, qui a des effets concrets sur des centaines de milliers de familles, est tenue secrète. Voici comment Le Monde et le collectif de journalistes Lighthouse Reports ont enquêté pour ouvrir la « boîte noire » du score de risque de la CNAF :

notre méthodologie d’analyse du code source de l’algorithme est détaillée ici ;
l’intégralité des critères utilisés par la CNAF pour noter les allocataires est consultable ici ;
nos échanges avec la CNAF sont retracés ici ;
transparence : Le Monde publie ici les documents transmis par la CNAF dans le cadre de cette enquête. L’association la Quadrature du Net a également mis en ligne le code source de l’algorithme ici.

La CNAF a-t-elle créé un monstre ? Pour le savoir, Le Monde a exploré avec le collectif de journalistes Lighthouse Reports le fonctionnement et les effets de cet algorithme. Notre enquête montre qu’il n’a pas été conçu pour identifier des comportements suspects, mais utilise des caractéristiques personnelles des allocataires, pour certaines discriminatoires, afin de leur attribuer un risque de fraude.

Une recette tenue secrète

A la caisse d’allocations familiales (CAF), le data mining est expérimenté dès 2004, dans les caisses locales de Dijon et de Bordeaux. Son usage est généralisé en 2010 à l’ensemble du territoire, dans un contexte politique marqué par la chasse à la fraude sociale – Nicolas Sarkozy a promis pendant sa campagne pour la présidentielle de 2007 de « punir les fraudeurs », avant de mettre en place, une fois élu, une délégation nationale à la lutte contre la fraude.

Le principe est simple : il s’agit de déterminer les profils d’allocataires les plus susceptibles d’avoir commis des irrégularités dans leurs déclarations. Pour cela, la CNAF lance un gigantesque test grandeur nature : elle envoie ses 700 contrôleurs au domicile de 7 000 allocataires tirés au sort pour vérifier leur situation en détail. Des statisticiens s’intéressent ensuite aux caractéristiques communes des dossiers ayant abouti à la réclamation de sommes versées à tort (les « indus », dans le jargon interne). Ils cherchent des corrélations avec les nombreuses données dont ils disposent sur les bénéficiaires fautifs – pas moins d’un millier d’informations distinctes sur chaque personne.

Il vous reste 85% de cet article à lire. La suite est réservée aux abonnés.

Source
Catégorie article Politique